R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测 |
您所在的位置:网站首页 › r语言 logistic › R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测 |
原文链接:http://tecdat.cn/?p=17950 最近我们被客户要求撰写关于信贷数据的研究报告,包括一些图形和统计输出。 在本文中,我们使用了逻辑回归、决策树和随机森林模型来对信用数据集进行分类预测并比较了它们的性能 数据集是credit=read.csv("gecredit.csv", header = TRUE, sep = ",")看起来所有变量都是数字变量,但实际上,大多数都是因子变量, > str(credit) 'data.frame': 1000 obs. of 21 variables: $ Creditability : int 1 1 1 1 1 1 1 1 1 1 ... $ Account.Balance : int 1 1 2 1 1 1 1 1 4 2 ... $ Duration : int 18 9 12 12 12 10 8 ... $ Purpose : int 2 0 9 0 0 0 0 0 3 3 ...让我们将分类变量转换为因子变量, > F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20) > for(i in F) credit[,i]=as.factor(credit[,i])现在让我们创建比例为1:2 的训练和测试数据集 > i_test=sample(1:nrow(credit),size=333) > i_calibration=(1:nrow(credit))[-i_test]我们可以拟合的第一个模型是对选定协变量的逻辑回归 > LogisticModel AUCLog1=performance(pred, measure = "auc")@y.values[[1]] > cat("AUC: ",AUCLog1,"\n") AUC: 0.7340997一种替代方法是考虑所有解释变量的逻辑回归 glm(Creditability ~ ., + family=binomial, + data = credit[i_calibrat点击标题查阅往期内容 R语言基于树的方法:决策树,随机森林,套袋Bagging,增强树 左右滑动查看更多 01 02 03 04 我们可能在这里过拟合,可以在ROC曲线上观察到 > perf |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |